紅茶是世界上最受歡迎的無酒精飲料之一,由茶樹的幼嫩枝葉加工而成。近年來,隨著紅茶的藥用價值和保健作用得到實驗的進(jìn)一步證實,全球紅茶消費(fèi)量持續(xù)增長。工夫紅茶作為紅茶的主要品類之一,是中國特有的一種茶品。其緊細(xì)的外形和醇厚的口感深受消費(fèi)者的喜愛。一般來說,茶葉的品質(zhì)與特定的感官特征如顏色、香氣、滋味、紋理和形態(tài)特征高度相關(guān)。茶葉按品質(zhì)的差異可以劃分為不同等級,這取決于其生長條件、收獲季節(jié)和加工工藝。在茶產(chǎn)品的實際流通銷售中,大多數(shù)消費(fèi)者無法準(zhǔn)確評估茶葉的質(zhì)量,這為不法商家提供了銷售假貨或以次充好的可能,給消費(fèi)者帶來了經(jīng)濟(jì)損失,也造成了消費(fèi)者與商家之間的不信任。因此,茶葉質(zhì)量的穩(wěn)定性和規(guī)范化一直受到消費(fèi)者的關(guān)注。
幾十年來,茶葉質(zhì)量評價主要采用兩種傳統(tǒng)方法,即感官品質(zhì)分析法和濕化學(xué)法。感官質(zhì)量分析是依靠訓(xùn)練有素的評茶員的經(jīng)驗來實現(xiàn)的,缺乏客觀的量化。濕化學(xué)分析通過使用精密的儀器,準(zhǔn)確測定茶葉中各種化學(xué)成分的含量。然而,化學(xué)分析具有設(shè)備昂貴、樣品制備復(fù)雜、使用大量化學(xué)試劑、成本較高、耗時較長的局限性,開發(fā)快速、穩(wěn)定、準(zhǔn)確的茶葉品質(zhì)評價技術(shù)勢在必行。
目前,基于單一外形色澤、紋理等特征無創(chuàng)判別茶葉質(zhì)量的評價方法被大量報道。將茶葉色澤和紋理特征進(jìn)行特征數(shù)據(jù)融合,全面衡量祁門工夫紅茶品質(zhì)的方法至今少有文獻(xiàn)報道。因此,有必要建立一套基于紋理和色澤等融合特征的茶葉品質(zhì)快速評價體系與智能感知的新方法。
綜上,探索一種流通過程中工夫紅茶外觀品質(zhì)的快速判別方法,對實現(xiàn)品質(zhì)等級與外觀質(zhì)量的實時控制至關(guān)重要。祁門紅茶的紋理與色澤特征是形成其外在品質(zhì)的主要指標(biāo),也是重要的感官品質(zhì)描述語,直接影響其在貿(mào)易中的銷售價值。而高光譜成像(Hyperspectral imaging, HSI)技術(shù)正適用于不同等級祁門工夫紅茶外觀品質(zhì)指標(biāo)與融合數(shù)據(jù)特征的快速無創(chuàng)檢測。
01
材料與方法
1、實驗材料
研究以祥源茶業(yè)股份有限公司提供的祁門櫧葉種祁門工夫紅茶的七個等級茶產(chǎn)品標(biāo)準(zhǔn)樣(特級、一級、二級、三級、四級、五級和六級)為研究對象,七個等級工夫型紅茶樣品的主要品質(zhì)成分含量和感官審評結(jié)果分別通過標(biāo)準(zhǔn)方法化驗和專業(yè)評茶員把關(guān)。紅茶樣品數(shù)共計700份,每個等級茶樣數(shù)分別為100份。樣品的七個不同等級(特級、一級、二級、三級、四級、五級和六級)分別以T、C1、C2、C3、C4、C5和C6表示。樣品的水分含量控制在7%左右。分析前,將樣品存放在真空壓縮的鋁箔袋中,并在恒溫干燥器中保存待用。
2、高光譜成像信息采集與處理
采集HSI數(shù)據(jù)時,每個樣品稱取15±0.5 g均勻鋪于培養(yǎng)皿(φ×h:9 cm×1 cm)中。為了獲得清晰的圖像,分別設(shè)置輸送帶速度、CCD相機(jī)曝光時間和鏡頭與樣品垂直距離三個調(diào)試參數(shù)為0.98 mm/s、30.01 ms和23.5 cm。將茶葉樣品放置在移動平臺上,通過行掃描的方式進(jìn)行圖像采集。為了去除相機(jī)內(nèi)的噪聲和暗電流等因素的干擾,在進(jìn)行HSI數(shù)據(jù)分析前,需對原始圖像進(jìn)行黑白校正,校正公式如下:
其中Ic是校正后的圖像,Iraw是原始圖像,Idark是通過完全覆蓋攝像頭鏡頭獲得的暗參考圖像(幾乎為0%的反射率),Iwhite是通過反射一個標(biāo)準(zhǔn)的特氟龍白瓷磚獲得的白色參考圖像(>99.9%的反射率)。
為降低HSI數(shù)據(jù)的空間維度,優(yōu)化茶樣原始圖像,實現(xiàn)冗余數(shù)據(jù)的消除和數(shù)據(jù)運(yùn)行速度的提升,主成分分析(Principal component analysis, PCA)被引入,用于數(shù)據(jù)降維和特征信息提取。該法將數(shù)據(jù)以線性變化的方式通過求解最大協(xié)方差,由高維度向低維度投影,獲得與原始變量線性組合的新變量。由于新變量間相互獨(dú)立,可消除相鄰波長間存在的數(shù)據(jù)冗余。高光譜特征波長圖像的確定是由前二至三個主成分(Principal component, PC)圖像的方差貢獻(xiàn)率決定,通過選取PCA變量線性組合的最大權(quán)重系數(shù),進(jìn)而在PC圖像中優(yōu)選出相應(yīng)波長對應(yīng)的圖像。HSI數(shù)據(jù)的校正和PCA均由ENVI 4.7軟件實現(xiàn)。
3、紋理和色澤特征提取
茶葉的紋理特征和色澤特征能夠直接反映其外觀品質(zhì)。研究采用ENVI 4.7軟件的PCA模塊提取圖像紋理信息??偟膩碚f,PCA的前幾個PCs對圖像總體信息做出了主要貢獻(xiàn)。首先,計算出前兩、三個PC的累積方差貢獻(xiàn)率,得到總變量貢獻(xiàn)率大于95%的PC對應(yīng)的載荷曲線。然后,將相應(yīng)PC載荷曲線的拐點(diǎn)(即波峰和波谷)作為特征波長,保存特征波長處的灰度圖像。最后,采用灰度統(tǒng)計矩陣(Grey-level gradient co-occurrence matrix, GLGCM)和灰度共生矩陣(Gray-level co-occurrence matrix, GLCM)兩種矩陣統(tǒng)計方法對茶葉圖像的紋理特征進(jìn)行提取和計算。GLCM法提取了指定圖像在特征波長下的六個不同的統(tǒng)計參數(shù)(即平均值、標(biāo)準(zhǔn)差、相關(guān)性、對比度、同質(zhì)性和能量)。GLGCM法基于灰度梯度的二階統(tǒng)計量,計算得到圖像的四個紋理統(tǒng)計值(熵、三階矩、一致性和平滑度)。將獲得的上述八個紋理參數(shù)和兩個統(tǒng)計參數(shù)(平均值和標(biāo)準(zhǔn)差)作為茶葉紋理特征變量,用于建立后續(xù)的紋理數(shù)據(jù)鑒別模型。上述紋理參數(shù)提取均通過MATLAB R2019b軟件實現(xiàn)。
采用MATLAB R2019b軟件選取樣品高光譜RGB圖像中200×200的像素區(qū)間為該圖像的感興趣區(qū)域(Region of interest, ROI),通過RGB、CIE Lab和HSV間的顏色模型變換,分別提取該區(qū)域內(nèi)的紅色(R)、綠色(G)和藍(lán)色(B)通道均值,明度(L*)、紅綠度(a*)和黃藍(lán)度(b*)分量均值以及色調(diào)(H)、飽和度(S)和亮度(V)均值九個色澤評價參數(shù)作為樣品的外觀顏色特征值,用于后續(xù)的樣品質(zhì)量評價模型的構(gòu)建。利用HSI系統(tǒng)提取色澤特征示意圖如圖1所示。
2、多元分析方法
為使模型具備良好的泛化性能,采用Kennard-Stone(K-S)方法對樣本集特征進(jìn)行劃分。該算法將所有的樣本作為校正集的候選樣本,計算所有樣本的歐氏距離,選取距離最近和最遠(yuǎn)的兩個樣本劃入校正集。重復(fù)上述步驟,直到獲得滿足要求的樣品數(shù)量。利用該法可優(yōu)選出具有代表性的樣本劃入校正集,余下的樣品劃入預(yù)測集。
在模型構(gòu)建中,研究選用非線性的支持向量機(jī)(Support vector machine, SVM)、兼具線性功能的最小二乘支持向量機(jī)(Least squares support vector machine, LSSVM)和隨機(jī)森林(Random forest, RF)算法進(jìn)行建模,并對判別模型效果進(jìn)行比較,探索出評價茶葉品質(zhì)的最優(yōu)模型。
SVM法是數(shù)據(jù)分析中常用的多分類器。該算法基于結(jié)構(gòu)風(fēng)險最小化原則,試圖提高泛化能力,降低預(yù)期風(fēng)險。SVM鑒別器以徑向基函數(shù)(Radial basis function, RBF)為核函數(shù),通過優(yōu)化兩個參數(shù)(即懲罰參數(shù)c和核參數(shù)g)獲得良好的預(yù)測。參數(shù)c用于獲得最小訓(xùn)練誤差和簡化模型;核函數(shù)g描述了輸入空間到隨機(jī)高維特征空間的非線性映射。
該方法的具體步驟概述如下:
(1)采用留一法交叉驗證來優(yōu)化核心參數(shù)(c和g);
(2)采用網(wǎng)格搜索法確定最佳參數(shù)對(c和g);
(3)根據(jù)預(yù)測集中正確判別率(Correct discriminant rate, CDR)的最高輸出,建立最佳的SVM分類模型。
LSSVM是一種有效的非線性智能學(xué)習(xí)算法,能夠快速解決線性和非線性模式識別問題。該法重點(diǎn)研究了機(jī)器學(xué)習(xí)損失函數(shù),并將第二范數(shù)應(yīng)用于目標(biāo)函數(shù)的優(yōu)化問題。算法使用等式約束代替不等式約束,將優(yōu)化問題轉(zhuǎn)化為對一組線性方程組的求解。對于任意已知輸入輸出的非線性樣本集,可以通過探索合適的非線性變換來建立LSSVM模型,其表達(dá)式如下:
在LSSVM模型中,核函數(shù)的選擇起著重要的作用。其核心思想是利用核函數(shù)將線性不可分的樣本映射到高維空間,解決維數(shù)的困擾。考慮特征空間的結(jié)構(gòu)完全由核函數(shù)決定,核函數(shù)選擇對分類器的開發(fā)具有重要意義。在本研究中,RBF是由專家根據(jù)最小誤差和先驗知識來選擇的。內(nèi)核函數(shù)的描述公式如下:
其中x為m維輸入向量,xi為第i個徑向基函數(shù)的中心,與x具有相同的維數(shù)。γ為徑向基函數(shù)核函數(shù)的參數(shù)。利用網(wǎng)格搜索法優(yōu)化了RBF的正則化參數(shù)gam(γ)和sig2(σ2)。該方法簡化了SVM優(yōu)化問題的求解,提高了計算效率,促進(jìn)了SVM的應(yīng)用和發(fā)展。
RF算法是基于回歸樹和分類樹的多個決策組合而構(gòu)建的模型集成方法。當(dāng)算法的運(yùn)行,每棵決策樹均進(jìn)行分類。以所有決策樹中分類結(jié)果最多的類別作為最終結(jié)果。算法提出了兩個關(guān)鍵參數(shù):一是決策樹的數(shù)量(Number of decision trees, nDT);二是用于構(gòu)建決策樹的采樣特征的數(shù)量。RF具有不要求變量服從特定統(tǒng)計分布、訓(xùn)練樣本少、對過擬合靈敏度低、能夠?qū)μ卣鞯闹匾赃M(jìn)行排序等優(yōu)點(diǎn)。
該方法可以簡單概括為如下三個步驟:
(1)使用Bagging方法隨機(jī)生成T個訓(xùn)練數(shù)據(jù)子集;
(2)每個訓(xùn)練樣本被用來生成相應(yīng)的決策樹。在每個子節(jié)點(diǎn)選擇屬性之前,從M個屬性中隨機(jī)選擇m個屬性作為當(dāng)前節(jié)點(diǎn)的拆分屬性集,在M個屬性中以最佳拆分方式拆分節(jié)點(diǎn);
(3)每一棵樹在不修剪的情況下充分生長,用來測試預(yù)測集X中的相應(yīng)類別,利用T決策樹的多數(shù)票,對X進(jìn)行集合分類決策。
為評價判別模型的性能,用校正集和預(yù)測集的CDR來評估模型的預(yù)測能力。一般來說,一個優(yōu)秀的判別模型應(yīng)有較高的CDR值,其計算方法如下:
其中,NCDR為校正/預(yù)測樣本的正確估計數(shù),Nt為校正/預(yù)測樣本的總數(shù)。上述建模算法均由MATLAB 2019b軟件在Windows 8平臺下自主開發(fā)。
02
結(jié)果與分析
1、樣品外觀品質(zhì)特征
七個不同等級(即T、C1、C2、C3、C4、C5和C6)的700份祁門工夫紅茶的九個顏色參數(shù)(R、G、B、L*、a*、b*、H、S和V)的變化情況如圖2所示。結(jié)果顯示,隨著樣本等級的降低,其外觀色調(diào)(H)和飽和度(S)值降低,其它七個指標(biāo)值則呈增長的趨勢。結(jié)果表明,茶樣的等級品質(zhì)越低,其色澤越暗,純度越低。
祁門紅茶樣本的紋理特征值的提取過程是利用ENVI軟件中PCA方法提取前兩個PC圖像的累計方差貢獻(xiàn)率達(dá)95.85%(PC1=92.19%,PC2=3.66%)(見圖3),前兩個PCA載荷曲線的波峰與波谷處的波段被篩選為圖像特征波長。從PC1和PC2中獲得了三個最佳波長(696.74 nm、752.86 nm和975.91 nm)。
因此,基于GLCM和GLGCM法從上述三個最佳波長的圖像ROI中提取圖像紋理特征。GLCM法獲得的紋理參數(shù)包括兩個統(tǒng)計值(均值和標(biāo)準(zhǔn)差)×三個波段+四個紋理指標(biāo)×三個波段×四個方向(0°、45°、90°和135°),即54個紋理特征。GLGCM方法可得到12個紋理數(shù)據(jù)(四個紋理特征×三個波段),總計66個紋理值,用于后續(xù)模型構(gòu)建。
2、樣品集劃分與主成分分析
利用K-S方法將校正集和預(yù)測集樣本以2∶1的比例進(jìn)行劃分,得到校正集樣品數(shù)為467,預(yù)測集樣品數(shù)為233。樣品集的二維PC空間分布情況見圖4。結(jié)果顯示,祁紅樣品的單一特征(色澤或紋理)與融合特征的校正集和預(yù)測集樣品的空間分布相對分散,且校正集樣品分布包含了預(yù)測集樣品的分布范圍。表明樣品集的劃分是合理的。
不同等級祁紅樣品的二維PC空間分布情況如圖5所示。不同等級樣本的單一特征(色澤或紋理)與融合特征PC得分分布顯示,不同等級的樣本間重疊性較強(qiáng),無論是單一特征還是融合特征均無法將不同等級的樣本區(qū)分開,有必要引入線性或非線性的分類算法,以實現(xiàn)對樣本品質(zhì)等級的準(zhǔn)確判別。
3、外觀品質(zhì)評價模型建立
基于SVM、LSSVM和RF智能算法的祁門紅茶外觀色澤、紋理及特征融合數(shù)據(jù)的等級評判模型結(jié)果見表1。
模型結(jié)果顯示,基于色澤、紋理與特征數(shù)據(jù)融合的祁門紅茶等級最優(yōu)LSSVM分類模型在校正集和預(yù)測集中的CDR分別為70.88%、72.96%、83.51%、86.27%和93.15%、94.85%。使用融合特征建立的最佳判別模型性能優(yōu)于單一紋理與色澤特征所建的模型,且紋理數(shù)據(jù)的建模效果高于色澤數(shù)據(jù)構(gòu)建的模型識別精度。此外,融合數(shù)據(jù)建立的所有模型的CDR均高于使用相同分類算法的紋理或色澤模型。實驗結(jié)果表明,特征融合能夠更為有效地反映祁紅樣本的外觀品質(zhì)屬性,建模精度較基于單一特征(紋理或色澤)的模型更高,對樣本的解析更加有優(yōu)勢。
03
總結(jié)與討論
研究基于HSI技術(shù)和化學(xué)計量學(xué)算法,開發(fā)出一套快速、無損的工夫紅茶外觀品質(zhì)(色澤、紋理和融合數(shù)據(jù))的評判方法。探討了不同機(jī)器學(xué)習(xí)算法對七個等級的祁門工夫紅茶標(biāo)準(zhǔn)樣單一外觀特征和多信息特征融合的預(yù)測能力,以探求評價模型的最優(yōu)化。
利用HSI技術(shù)獲得祁門紅茶樣品的色澤和紋理特征數(shù)據(jù),比較了基于SVM、RF和LSSVM算法對上述茶產(chǎn)品標(biāo)準(zhǔn)樣的單一外觀特征和融合特征的等級判別模型性能。結(jié)果表明,基于融合數(shù)據(jù)的建模性能優(yōu)于基于單一特征屬性(色澤或紋理)的模型。由單一外觀特征的模型性能可知,紋理特征模型精度最高,色澤特征數(shù)據(jù)的建模效果最差。利用LSSVM算法構(gòu)建的特征融合評價模型對祁紅樣品的預(yù)測準(zhǔn)確度最高,預(yù)測集判別率達(dá)到94.85%。利用特征融合數(shù)據(jù)所建模型具有更優(yōu)的預(yù)測能力,為工夫紅茶產(chǎn)品外觀品質(zhì)的快速評判提供了一種行之有效的方法。
在所有分類模型中,色澤數(shù)據(jù)模型的預(yù)測性能較差。有可能是對祁門紅茶樣本外觀的等級劃分標(biāo)準(zhǔn)更加側(cè)重于對茶葉嫩度高低的審定。紅茶樣品的持嫩度不同,其紋理差異較大。色澤特征主要與紅茶發(fā)酵程度關(guān)系緊密。在標(biāo)準(zhǔn)化的紅茶加工工藝模式下,發(fā)酵工序具有嚴(yán)格的參數(shù)控制,其品質(zhì)具有較強(qiáng)一致性。因此,不同等級的紅茶產(chǎn)品的色澤變化程度沒有紋理特征的差異性大,進(jìn)而導(dǎo)致色澤數(shù)據(jù)模型的性能較紋理特征差。
從分類算法的角度看,LSSVM模型的預(yù)測效果優(yōu)于SVM模型和RF模型。LSSVM模型的優(yōu)化可以理解為等式約束,解決了基于訓(xùn)練誤差平方的線性方程問題。在SVM算法的基礎(chǔ)上建立和開發(fā)的LSSVM方法,能夠得到一個更為簡單、有效、穩(wěn)健的模型。根據(jù)相關(guān)文獻(xiàn),LSSVM分類器能夠有效提高茶葉品質(zhì)評價模型的計算速度和分類精度。此外,RF算法對于輸出數(shù)值較多的屬性可能會產(chǎn)生誤差。綜上,LSSVM分類工具能夠提供更好的解決線性和非線性問題的方案,更加有效地簡化問題的復(fù)雜性,增強(qiáng)模型性能。
作者簡介:
尹玲玲
馬鞍山人,在讀本科生,主要從事茶葉品質(zhì)分析與化學(xué)方向的研究。參與省部級以上科研項目3項,發(fā)表科研論文5篇。
通訊作者:
任廣鑫
博士,淮南師范學(xué)院生物工程學(xué)院食品工程系專任教師,主要從事茶葉品質(zhì)分析與茶葉質(zhì)量安全快速無損檢測技術(shù)方向的研究。近年來主持和參與省部級以上科研項目10余項,主持和參與省級、校級質(zhì)量工程項目多項。以第一作者和通訊作者發(fā)表科研論文20余篇,其中SCI收錄20余篇。
來源:中國茶葉加工
如涉及版權(quán)問題請聯(lián)系刪除